智能论文笔记

Sentence Embeddings and High-speed Similarity Search for Fast Computer Assisted Annotation of Legal Documents

Hannes Westermann , Jaromir Savelka , Vern R. Walker , Kevin D. Ashley , Karim Benyekhlef

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-21

人类表演的法律文件中句子的注释是许多基于机器学习的系统支持法律任务的重要先决条件。通常，注释是按顺序完成的，句子句子通常是耗时的，因此昂贵。在本文中，我们介绍了一个概念验证系统，用于横向注释句子。该方法基于观察到含义类似的句子通常在特定类型系统方面具有相同的标签。我们在允许注释器中使用此观察来快速查看和注释在整个文档语料库中使用与给定句子的语义类似的句子。在这里，我们介绍了系统的界面并经验评估方法。实验表明，横向注释有可能使注释过程更快，更加一致。

translated by 谷歌翻译

Lex Rosetta: Transfer of Predictive Models Across Languages, Jurisdictions, and Legal Domains

Jaromir Savelka , Hannes Westermann , Karim Benyekhlef , Charlotte S. Alexander , Jayla C. Grant , David Restrepo Amariles , Rajaa El Hamdani , Sébastien Meeùs , Michał Araszkiewicz , Kevin D. Ashley

分类：自然语言处理

2021-12-15

在本文中，我们研究了多语言句子嵌入的使用，以转移跨管辖区，法律制度（普通和民法），语言和域名的审判决策功能分割的预测模型（即语境）。利用原始环境之外的语言资源的机制在AI和法律中具有显着的潜在利益，因为法律制度，语言或传统之间的差异往往阻碍了更广泛的研究结果。我们使用跨语言可转换的门控复发单元（GRUS）分析使用语言无话句子表示的使用。调查不同背景之间的转移，我们开发了一种审判决策功能分割的注释方案。我们发现模特超出了他们接受培训的背景（例如，在美国的行政决定上培训的模型可以应用于意大利的刑法决定）。此外，我们发现在多种上下文上培训模型增加了鲁棒性并在评估先前看不见的上下文时提高整体性能。最后，我们发现，从所有上下文中汇集训练数据增强了模型的上下文性能。

translated by 谷歌翻译

Cross-Domain Generalization and Knowledge Transfer in Transformers Trained on Legal Data

Jaromir Savelka , Hannes Westermann , Karim Benyekhlef

分类：自然语言处理

2021-12-15

我们分析预先训练的语言模型在使用不同类型系统注释的数据集中传输知识的能力，并概括在域名和数据集之外，他们接受了培训。我们创建了一个元任务，在多个数据集上集中于预测修辞角色。在案例决策中扮演句子扮演的修辞角色的预测是AI＆法律中的重要且经常学习的任务。通常，它需要批注大量句子来训练模型，这可能是耗时和昂贵的。此外，模型的应用受到培训的相同数据集。我们微调语言模型并在数据集中评估它们的性能，以研究模型的拓展域的能力。我们的结果表明，该方法可以有助于克服主动或Interactie学习中的冷启动问题，并显示模型跨越数据集和域的能力。

translated by 谷歌翻译

Discovering Explanatory Sentences in Legal Case Decisions Using Pre-trained Language Models

Jaromir Savelka , Kevin D. Ashley

分类：自然语言处理

2021-12-14

法律文本经常使用难以理解的概念。律师在其他事物仔细研究他们过去习惯的情况下，阐述了这种概念的含义。寻找以有用方式提及特定概念的文本片段是乏味，耗时的，因此，昂贵。我们组装了一个来自法律案例决策的26,959个句子的数据集，并在他们解释所选法律概念的实用性方面标记它们。使用DataSet我们研究了基于Transformer的模型的有效性，在大型语言语料上进行了预先培训，以检测哪些句子是有用的。根据模型的预测，我们分析了解释性句子的各种语言特性，以及他们与需要解释的法律概念的关系。我们表明，基于变压器的模型能够学习令人惊讶的复杂功能，优于前进的任务方法。

translated by 谷歌翻译

Computer-Assisted Creation of Boolean Search Rules for Text Classification in the Legal Domain

Hannes Westermann , Jaromir Savelka , Vern R. Walker , Kevin D. Ashley , Karim Benyekhlef

分类：机器学习 | 人工智能 | 自然语言处理

2021-12-10

在本文中，我们提出了一种以布尔搜索规则的形式构建强大可解释的分类器的方法。我们开发了一个互动的环境，称为案例（计算机辅助语义探索），它利用Word Co-Instionrence在选择相关搜索条件时引导人类的注释器。该系统无缝促进迭代评估和改进分类规则。该过程使人类注入者能够利用统计信息的好处，同时将其专家直接纳入这些规则的创建。我们评估在4个数据集中使用我们的案例系统创建的分类器，并将结果与机器学习方法进行比较，包括Skope规则，随机林，支持向量机和FastText分类器。结果推动了关于布尔搜索规则的卓越紧凑性，简单性和直观之间的权衡的讨论与文本分类的最先进的机器学习模型的更好性能。

translated by 谷歌翻译

Time series forecasting of new cases and new deaths rate for COVID-19 using deep learning methods

Nooshin Ayoobi , Danial Sharifrazi , Roohallah Alizadehsani , Afshin Shoeibi , Juan M. Gorriz , Hossein Moosaei , Abbas Khosravi , Saeid Nahavandi , Abdoulmohammad Gholamzadeh Chofreh , Feybi Ariani Goni

分类：机器学习 | 计算机视觉

2021-04-28

第一个已知的冠状病毒疾病2019（Covid-19）于2019年12月确定。它在全球范围内传播，导致许多国家的持续流行，强加的限制和成本。在此期间预测新案例和死亡人数可能是预测未来所需成本和设施的有用步骤。本研究的目的是预测未来100天内的新案例和死亡率，三天和七天。预测每一个天（而不是每天的动机）是调查计算成本降低和仍然实现合理性能的可能性。可以在时间序列的实时预测中遇到这样的场景。六种不同的深入学习方法是对来自世卫组织网站采用的数据进行检查。三种方法是LSTM，卷积LSTM和GRU。然后考虑对每种方法考虑双向延伸，以预测澳大利亚和伊朗国家的新案例和新死亡率。这项研究是新颖的，因为它对上述三个深度学习方法及其双向延伸进行了全面评估，以对Covid-19新案例和新的死亡率时间序列进行预测。据我们所知，这是Bi-Gru和Bi-conv-LSTM模型首次用于Covid-19新案例和新的死亡时间序列的预测。该方法的评估以图形和弗里德曼统计测试的形式提出。结果表明双向模型的误差比其他模型较低。提出了几个错误评估度量来比较所有模型，最后，确定双向方法的优越性。该研究对于针对Covid-19的组织有用，并确定其长期计划。

translated by 谷歌翻译